为给大家更好的微生物组16S测序服务体验,我们不仅在实验上有大动作(微生物组16S测序又有大动作!升级至NovaSeq PE250,数据量免费升至5万Tags),也花了许多心思对数据分析进行了多项重要升级。下面向大家一一报告。
QIIME(Quantitative Insights Into Microbial Ecology)是微生物组大牛Rob Knight组发布的微生物组分析流程[1],截至2019年9月,引用次数已超过16,000次,功能强大到没有对手。在今年的6月17日,被《Nature》期刊评为近70年来人体微生物组研究的25个里程碑事件之一。然而,随着近年来测序通量的大幅提高和超大规模微生物组研究的开展,QIIME己无法满足当前大数据和可重复分析的要求。为此,全新的更强大的微生物组分析平台——QIIME 2,在2016年启动编写,于2018年正式接档QIIME,此后又经过多次迭代开发,日趋成熟,方法文章于2019年7月24日正式发表于Nature Biotechnology杂志[2]。经过数月测试和优化,现在起,我们将扩增子测序的数据分析全面升级至QIIME 2流程。QIIME 2:可重复、交互和扩展的微生物组数据分析流程
全面启用QIIME 2流程的同时,我们不再使用传统的基于OTU的分析方法,取而代之的是调用DADA2[3],对原始数据进行去噪,相当于按照100%的相似性聚类,进而获得单碱基精度的代表序列,更真实的还原微生物群落结构。QIIME 2具有数十种功能强大的插件(见下图),DADA2只是其中一个,这些表现优异的插件都将在你的数据分析中被充分使用,为你生成更为可靠和丰富的数据结果。同样的数据结果,为什么高分文章中的图表看起来更高大上,信息量更丰富。我们已经get到大家的呼声。根据项目经验和最新高分文章中的图表呈现形式,我们对一批大家高频使用的图表再次进行了美颜,以下展示部分内容让大家先睹为快。大家发现了其他更美的展现形式请@我们,很可能后面就会出现在你的结果里。α多样性分析用小提琴图展示,集合了箱形图和密度图的特征。左上角给出了差异分析使用的检验方法和计算得到的p值。当p<0.01,则标记为**,表示差异极显著;当p<0.05,则标记为*,表示差异显著;当p>0.05,则标记为ns,表示无显著性差异。
上图为PCoA分析,左图为Weight_UniFrac分析结果,右图为Unweight_UniFrac分析结果。图中不同颜色代表不同分组,同一个分组按照95%置信区间以圈图形式展示。
采用LEfSe差异分析鉴定每个分类层级中的差异物种,找到各组的biomarkers,并采用物种层级关系树(Cladogram)展示各个分类学水平上的biomarker及其丰度。上图中不同圈层从内至外辐射分别代表界门纲目科属种七个分类级别,各个节点代表该水平下的一个物种分类,该物种丰度越高节点越大。其中节点颜色为黄色,表示该物种在两组比较中无显著性差异,其他颜色如上图中CRC组和H组分别用红色和绿色表示,节点颜色为红色,表示该物种在两组比较中有显著差异,且在CRC中丰度更高;节点颜色为绿色,则表示该物种在H组中丰度更高。下方柱状图直接列出在各组中显著高丰度的各分类层级上的物种信息。
使用Circos圈图展示样本与物种的对应关系,反映每个样本组的优势物种组成比例以及各优势物种在不同样本组之间的分布比例。在上图中,左半圆外圈和内圈分别代表丰度Top5的门水平的物种信息,及其在不同样本组中所占比例;右半圆外圈和内圈分别代表6个样本分组信息,及其包含的Top5的门水平的物种所占比例。
桑基图(Sankey plots)用来展示数据的“流动”变化,分支的宽度表示流量的大小。上图中展示了不同样本(左侧)对应的门水平(中间)和属水平(右侧)的菌群相对丰度,直观展示菌群多样性研究中最为关注的两个层级的物种注释信息,对应关系,以及所占比例。气泡(Bubble)图利用气泡的大小和颜色变化,直观反映物种注释与丰度二维矩阵中的数据信息。上图展示了不同的样本分组中属水平的物种注释信息及相对丰度(圈的大小),同时又展示了物种对应的门的物种注释信息(圈的颜色)。除了已有的差异物种ROC曲线分析,临床因子关联分析(CCA/RDA分析),预测基因功能PICRUSt2分析外,针对临床微生物多样性研究,我们新增了多项分析内容。我们会继续提供新的临床微生物个性化分析项目,大家有什么建议,记着@我们,可能马上就实现了呢。基于国家疾控中心数据库,使用16SPIP快速筛查346种与人体健康相关的病原体[4]。上图中展示的是属水平上各样本中致病菌筛查结果与丰度(右),并基于Bray-Curtis距离法和病原菌组成相似性进行样本聚类(左),可以帮助研究人员快速查找可能的致病原因。NA表示未注释上致病菌,即表示非致病菌。
BugBase是一款分析微生物组样品表型的工具,可对微生物群落根据七类表型进行分类:革兰氏阳性(Gram Positive)、革兰氏阴性(Gram Negative)、生物膜形成(Biofilm Forming)、致病性(Pathogenic)、移动元件(Mobile Element Containing)、氧需求(Oxygen Utilizing,包括Aerobic、Anaerobic、facultatively anaerobic)及氧化胁迫耐受(Oxidative Stress Tolerant),这些信息可以帮助更好地了解微生物与疾病的关系。上图表示不同表型细菌在不同样本中的丰度比例与差异比较。
MaAsLin软件是基于线性模型进行多元关联分析,可进行临床和微生物丰度相关性分析。使用的临床数据可以是连续性的数值(如年龄、体重),也可以是布尔类型的数值(粪便或粘膜样品)。微生物丰度数据来自16S测序。上图中横坐标为年龄,纵坐标为微生物物种相对丰度,r值表示两者的相关性系数,p和q表示相关性是否显著。微生物组研究已不满足于16S多样性的分析,关联宏基因组,转录组,以及代谢组等多组学数据已成为系统回答微生物与宿主的互作关系及其发挥功能的趋势,也是发表微生物组高分文章的必备内容。我们专门针对微生物组与代谢组等多组学关联分析开发出了一套具有软著权的算法——ACGT101_metaomics ,采用多变量分析中的回归分析对数据进行降维处理,大幅缩小数据筛选范围,帮助研究人员更快找到核心菌群和核心代谢物(<5个),已成功应用于大样本量多临床因子,以及多组学数据关联分析的临床微生物组研究项目。16S数据关联代谢组数据,进行基于Pearson相关性的聚类分析,来鉴定样本组中具有相关性的微生物和代谢物。上图来自用户文章(16S+代谢组炼就8分肠道菌群文章) ,A图表示CRC组的代谢物-微生物相关性强于H组,表明CRC组异常丰富的代谢物高度归因于肠道菌群失衡或其相互作用。进一步研究76个OTUs相关的代谢物。结果表明,CRC组中多种微生物-代谢物关系对存在正相关(B图)。
关联宏基因组数据、代谢组数据和临床指标,进行基于Spearman相关性的聚类分析,来分析微生物与临床指标(左图)、代谢组(右图)间的相关性。1. Caporaso JG, et al. QIIME allows analysis of high-throughput community sequencing data. Nat Methods. 2010, 7(5):335-6.2. Bolyen E, et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nat Biotechnol. 2019, 37(8):852-857.3. Callahan BJ, et al. DADA2: High-resolution sample inference from Illumina amplicon data. Nat Methods. 2016, 13(7):581-3.4. Miao J, et al. 16sPIP: A Comprehensive Analysis Pipeline for Rapid Pathogen Detection in Clinical Samples Based on 16S Metagenomic Sequencing. BMC Bioinformatics, 2017, 18(Suppl 16): 568.